Fundamentos de Inferência

Introdução

Um dos principais objetivos da Estatística é tirar conclusões a partir dos dados.

Dados em geral consistem de uma amostra de elementos de uma população de interesse.

O objetivo é usar a amostra e tirar conclusões sobre a população.

Quão confiável será utilizar a informação obtida apenas de uma amostra para concluir algo sobre a população?

Inferência Estatística

Variável Aleatória: Característica numérica do resultado de um experimento.

População: todos os elementos ou resultados de um problema que está sendo estudado.

Amostra: qualquer subconjunto da população que contém os elementos que podem ser observados e é onde as quantidades de interesse podem ser medidas.

Inferência Estatística

Parâmetros: Característica numérica (desconhecida) da distribuição dos elementos da população.

Estimador/Estatística: Função da amostra, construída com a finalidade de representar, ou estimar um parâmetro de interesse na população.

Estimativa: Valor numérico que um estimador assume para uma dada amostra.

Estatística

Seja \(X_{1},...,X_{n}\) uma amostra, \(T=f(X_{1},...,X_{n})\) é uma estatística.

Exemplos:

  • \(\bar{X}_{n}=\frac{1}{n}\sum_{i=1}^{n}X_{i}=\frac{1}{n}(X_{1}+...+X_{n})\): a média amostral é uma estatística.

  • \(X_{(1)}=min\{X_{1},...,X_{n}\}\).

  • \(X_{(n)}=max\{X_{1},...,X_{n}\}\).

  • \(X_{(i)}\) é o i-ésimo valor da amostra ordenada.

  • Note que uma estatística é uma função que em uma determinada amostra assume um valor específico (estimativa).

Estatística

  • Para que serve uma estatística? Para "estimar" os valores de uma distribuição, ou características de uma população.

  • População:

    • \(\mbox{média}_{P}\).
    • \(\mbox{variância}_{P}\).
  • Amostra:

    • \(\mbox{média}_{A} = \sum_{i=1}^{n}\frac{X_{i}}{n}\) "estima" a \(\mbox{média}_{P}\).
    • \(\mbox{variância}_{A} = \sum_{i=1}^{n}\frac{(X_{i}-\mbox{média}_{A})^{2}}{n}\) "estima" a \(\mbox{variância}_{P}\)

Exemplo

Temos interesse em conhecer a média e variância das alturas dos brasileiros adultos. Sabemos que a distribuição das alturas pode ser representada por um modelo normal.

Solução 1: Medir a altura de todos os brasileiros adultos.

Solução 2: Selecionar de forma aleatória algumas pessoas (amostra), analisá-las e inferir propriedades para toda a população.

Exemplo

Seja \(\theta\) a proporção de alunos na Unicamp que doou sangue pelo menos uma vez nos últimos dois anos.

  • Inviável perguntar para todos os estudantes: coleta-se uma amostra.

  • Planejamento amostral: obter uma amostra aleatória simples de tamanho \(n=100\) alunos, sem reposição.

  • cada \(X_{i}\), \(i=1,...,100\), vai assumir o valor 1 se o aluno \(i\) doou sangue pelo menos uma vez nos últimos dois anos, e 0 se não.

  • estatística: \(T=\frac{X_{1}+...+X_{100}}{100}\).

  • uma vez que a coleta foi implementada, \(T\) assume um valor, por exemplo, 0.63, que será usado para estimar \(\theta\), ou seja, \(\hat\theta=0.63\).

Parâmetro

  • Cada quantidade de interesse (como \(\theta\) no exemplo anterior) é chamada de parâmetro da população.

  • Para apresentar uma estimativa de um parâmetro (\(\hat\theta\)), devemos escolher uma estatística (\(T\)).

  • Note que da maneira que o plano amostral foi executado (amostra aleatória simples), a estatística \(T\) é uma variável aleatória, visto que cada vez que executarmos o plano amostral poderemos obter resultados diversos.

  • Portanto, a estatística \(T\) possui uma distribuição de probabilidade, chamada de distribuição amostral de T.

Exemplo: Lançamento de dado

Se o dado é "honesto", quantos 6 você espera que ocorram em 100 lançamentos?

Se um dado "honesto" é lançado diversas vezes, esperamos que o 6 ocorra \(1/6\) das vezes.

100 lançamentos: \(100/6\approx 17\) vezes.

É muito improvável que o 6 saia 23 vezes em 100 lançamentos? Como verificar?

  • Lance o dado 100 vezes.
  • Conte o número de 6 que aparecem.
  • Repita várias vezes esse processo.

Você obtém assim a distribuição de frequências do 6 em 100 lançamentos do dado.

Simulação 1: lançamento de um dado 100 vezes

1 2 3 4 5 6
Freq 12 21 28 6 20 13

Simulação 2: lançamento de um dado 100 vezes

1 2 3 4 5 6
Freq 16 19 13 16 14 22

Simulação 3: lançamento de um dado 100 vezes

1 2 3 4 5 6
Freq 11 21 22 13 19 14

Simulação 3: lançamento de um dado 100 vezes

Simulação 3: lançamento de um dado 100 vezes

Simulação 2: lançamento de um dado 100 vezes

Simulação 1: lançamento de um dado 100 vezes

Simulação: lançamento de um dado 100 vezes

A cada simulação (100 lançamentos e anotando o total de 6) obtivemos um resultado diferente: 13, 22 e 14.

Se repetirmos as simulação 1000 vezes, temos uma idéia da distribuição de frequências da proporção de 6 em 100 lançamentos.

Média: 0.167. Mediana: 0.17.

Simulação 4: lançamento de um dado 5000 vezes

Com poucos lançamentos, a proporção de 6 pode flutuar bastante, mas com o aumento do número de lançamentos, a proporção acumulada de 6 estabiliza em \(1/6\).

Lei dos Grandes Números

O resultado da simulação é um caso particular da Lei dos Grandes Números, resultado provado em 1689 pelo matemático suíço Jacob Bernoulli.

Se um evento de probabilidade p é observado repetidamente em ocasiões independentes, a proporção da frequência observada deste evento em relação ao total número de repetições converge em direção a p à medida que o número de repetições se torna arbitrariamente grande.

Teorema Central do Limite

Teorema Central do Limite (TCL)

Resultado

Para uma amostra aleatória simples \(X_{1},...,X_{n}\) coletada de uma população com média \(\mu\) e variância \(\sigma^{2}\), a distribuição amostral de \(\bar{X}_{n}\) aproxima-se de uma distribuição Normal de média \(\mu\) e variância \(\frac{\sigma^{2}}{n}\), quando \(n\) for suficientemente grande.

Definimos também:

\[Z=\frac{\bar{X}_{n}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)\]

Teorema do Limite Central

Exemplo

\(X=\) resultado obtido no lançamento de um dado honesto.

\(x\) 1 2 3 4 5 6
\(p(x)=P(X=x)\) \(\frac{1}{6}\) \(\frac{1}{6}\) \(\frac{1}{6}\) \(\frac{1}{6}\) \(\frac{1}{6}\) \(\frac{1}{6}\)

\(E(X)=\frac{1}{6}\times(1+2+3+4+5+6)=\frac{21}{6}=3.5\)

\(Var(X)=\frac{1}{6}[(1+4+9+16+25+36)-\frac{1}{6}\times(21)^{2}]=\frac{35}{2}=17.5\)

  • \(X_i\): resultado do \(i\)-ésimo lançamento de um dado honesto.

  • \(X_i\) tem distribuição uniforme discreta \(\forall i\).

  • \(\mu=E(X_i)=3.5 \qquad\) e \(\qquad \sigma^2=Var(X_i)=17.5\), \(\forall i\).

Exemplo

Se temos uma amostra aleatória simples de tamanho \(n\): \(X_1,X_2,\ldots, X_n\), pelo TLC sabemos que a distribuição amostral de \(\bar{X}_n\) é aproximadamente Normal\(\left( 3.5, \frac{17.5}{n} \right)\).

O primeiro histograma a seguir mostra o resultado de 10000 repetições do seguinte experimento: observar o resultado do lançamento de 1 dado. Repare que é muito próximo de uma distribuição uniforme discreta (chance 1/6 para cada resultado).

O segundo histograma mostra o resultado de 10000 repetições do seguinte experimento: observar a média do lançamento de 2 dados (equivalente a observar a média de 2 lançamentos de um dado).

O último histograma mostra o resultado de 10000 repetições do seguinte experimento: observar a média do lançamento de 100 dados (equivalente a observar a média de 100 lançamentos de um dado).

Repare que conforme o número de dados (tamanho amostral) aumenta, a distribuição da média amostral se aproxima da distribuição normal com média 3.5 e variância cada vez menor (17.5/n).

Exemplo

Teorema do Limite Central (TLC)

Leituras

  • Ross: capítulo 7.
  • OpenIntro: seção 4.1.
  • Magalhães: capítulo 7.

Slides produzidos pelos professores:

  • Samara Kiihl

  • Tatiana Benaglia

  • Benilton Carvalho

  • Rafael Maia